Implicit regularization is an important way to interpret neural networks. Recent theory starts to explain implicit regularization with the model of deep matrix factorization (DMF) and analyze the trajectory of discrete gradient dynamics in the optimization process. These discrete gradient dynamics are relatively small but not infinitesimal, thus fitting well with the practical implementation of neural networks. Currently, discrete gradient dynamics analysis has been successfully applied to shallow networks but encounters the difficulty of complex computation for deep networks. In this work, we introduce another discrete gradient dynamics approach to explain implicit regularization, i.e. landscape analysis. It mainly focuses on gradient regions, such as saddle points and local minima. We theoretically establish the connection between saddle point escaping (SPE) stages and the matrix rank in DMF. We prove that, for a rank-R matrix reconstruction, DMF will converge to a second-order critical point after R stages of SPE. This conclusion is further experimentally verified on a low-rank matrix reconstruction problem. This work provides a new theory to analyze implicit regularization in deep learning.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
联合学习(FL)有助于多个客户共同培训机器学习模型,而无需共享其私人数据。但是,客户的非IID数据给FL带来了艰巨的挑战。现有的个性化方法在很大程度上依赖于将一个完整模型作为基本单元的默认处理方法,而忽略了不同层对客户非IID数据的重要性。在这项工作中,我们提出了一个新的框架,联合模型组成部分自我注意力(FEDMCSA),以处理FL中的非IID数据,该数据采用模型组件自我注意机制来颗粒片促进不同客户之间的合作。这种机制促进了相似模型组件之间的合作,同时减少了差异很大的模型组件之间的干扰。我们进行了广泛的实验,以证明FEDMCSA在四个基准数据集上的表现优于先前的方法。此外,我们从经验上展示了模型组成部分自我发项机制的有效性,该机制与现有的个性化FL互补,可以显着提高FL的性能。
translated by 谷歌翻译
机器人社区早已期望在混乱环境中处理物体的能力。但是,大多数作品只是专注于操纵,而不是在混乱的对象中呈现隐藏的语义信息。在这项工作中,我们介绍了在混乱的场景中进行体现探索的场景图,以解决此问题。为了在混乱的情况下验证我们的方法,我们采用操纵问题答案(MQA)任务作为我们的测试基准,该测试基准要求具有体现的机器人具有主动探索能力和视觉和语言的语义理解能力。任务,我们提出了一种模仿学习方法,以生成探索的操作。同时,采用了基于动态场景图的VQA模型来理解操纵器手腕摄像头的一系列RGB帧以及操纵的每一步,以在我们的框架中回答问题。我们提出的框架对于MQA任务有效,代表了混乱的场景中的任务。
translated by 谷歌翻译
垂直联合学习(VFL)引起了很多关注,因为它可以以隐私的方式实现跨核数据合作。虽然大多数在VFL专注于线性和树模型的研究工作,但在VFL中尚未对深层模型(例如,神经网络)进行很好的研究。在本文中,我们专注于Splitnn,这是VFL中著名的神经网络框架,并确定了SplitNN中数据安全性和模型性能之间的权衡。简而言之,SplitNN通过交换梯度和转换数据来训练模型。一方面,SplitNN遭受了模型性能的损失,因为多方使用转换的数据而不是原始数据共同训练模型,并且丢弃了大量的低级特征信息。另一方面,通过在SplitNN中的较低层的汇总(即,数据的转换较小,保留了更低级别的功能)来提高模型性能的天真解决方案,使原始数据易受推理攻击的影响。为了减轻上述权衡,我们在VFL中提出了一个新的神经网络协议,称为安全远射聚合(SFA)。它改变了汇总转换数据并采用可移动掩码以保护原始数据的方式。实验结果表明,具有SFA的网络同时实现了数据安全性和高模型性能。
translated by 谷歌翻译
卷积神经网络(CNN)通过使用大型数据集在图像分类方面取得了重大成功。但是,在小规模数据集上从头开始学习,有效地有效地学习,这仍然是巨大的挑战。借助有限的培训数据集,类别的概念将是模棱两可的,因为过度参数化的CNN倾向于简单地记住数据集,从而导致概括能力差。因此,研究如何在避免过度拟合的同时学习更多的判别性表示至关重要。由于类别的概念往往是模棱两可的,因此获取更多个人信息很重要。因此,我们提出了一个新框架,称为“吸引和修复”,由对比度正规化(CR)组成以丰富特征表示形式,对称交叉熵(SCE),以平衡不同类别的拟合和平均教师以校准标签信息。具体而言,SCE和CR学习歧视性表示,同时通过班级信息(吸引)和实例(拒绝)之间的适应性权衡缓解过度构成。之后,平均教师通过校准更准确的软伪标签来进一步提高性能。足够的实验验证了吸引和修复框架的有效性。加上其他策略,例如积极的数据增强,tencrop推断和模型结合,我们在ICCV 2021 vipriors图像分类挑战中获得了第二名。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
深度学习在加速磁共振成像(MRI)中表现出惊人的性能。最先进的深度学习重建采用强大的卷积神经网络,并且由于许多磁共振图像或其对应的k空间是2D的许多磁共振图像或其对应的k空间。在这项工作中,我们展示了一种探讨了1D卷积的新方法,使得深度网络更容易受到培训和广义。我们进一步将1D卷积集成到所提出的深网络中,命名为一维深度低级和稀疏网络(ODL),它展开了低级和稀疏重建模型的迭代过程。在体内膝盖和脑数据集中的广泛结果表明,所提出的ODLS非常适合培训受试者的情况,并提供比视觉和定量的最先进的方法改进的重建性能。此外,ODL还向不同的欠采样场景显示出良好的稳健性以及培训和测试数据之间的一些不匹配。总之,我们的工作表明,在快速MRI中,1D深度学习方案是内存高效且强大的。
translated by 谷歌翻译
神经辐射场(NERF)使用基于坐标的神经场景表示实现了前所未有的视图合成质量。然而,NERF的视图依赖项只能处理像亮点的简单反射,而是无法处理复杂的反射,例如来自玻璃和镜子的复杂反射。在这些方案中,NERF将虚拟映像模拟为实际几何形状,这导致了不准确的深度估计,并且当违反多视图一致性时产生模糊渲染,因为只有在一些视点下只能看到反射对象。为了克服这些问题,我们介绍了nerfren,它建在nerf,以模拟思考的场景。具体地,我们建议将场景分成传输和反射的组件,并模拟具有单独的神经辐射场的两个组件。考虑到这种分解是高度限制的,我们利用几何前瞻,并仔细设计的培训策略,以实现合理的分解结果。各种自捕获场景的实验表明,我们的方法实现了高质量的新颖观看合成和物理声音深度估计结果,同时启用场景编辑应用。代码和数据将被释放。
translated by 谷歌翻译
尽管概念化已经在语义和知识表示中进行了广泛研究,但找到最准确的概念短语来表征在快速增长的社交媒体上表征文本片段的主要思想仍然具有挑战性。这部分归因于以下事实:大多数知识库都包含世界的一般术语,例如树木和汽车,它们没有定义的力量或对社交媒体应用程序用户不够有趣。另一个原因是,自然语言的复杂性允许使用时态,否定和语法改变语言的逻辑或重点,从而传达了完全不同的含义。在本文中,我们提出了标签,这是一个高质量的概念匹配的数据集,该数据集由10,000个标记的精细概念和网络风格的自然语言句子组成,并从开放域社交媒体中挖出。我们考虑的概念代表了在线用户的趋势兴趣。与标签相关的是这些细粒度概念和实体的概念图,以提供结构上下文信息。我们在标签上评估了广泛的流行神经文本匹配模型以及预先训练的语言模型,并指出他们以最合适的概念标记社交媒体内容的不足。我们进一步提出了一种新颖的图形匹配方法,该方法通过更好地利用概念图中的结构上下文和句子中语义单元之间的逻辑相互作用在句子中通过句法依赖性解析来展示出色的抽象和概括性能。我们开源标签数据集和提出进一步研究的建议方法。
translated by 谷歌翻译